在2023年演奏大型视觉语言模型(LVLM)在AI社区中很流行。但是,相对较大的参数(超过7b)流行的LVLM使训练和部署在消费者GPU上,阻止许多资源有限的研究人员。想象一下在旧的GTX1080TI(我们唯一的游戏卡)上体验当前LVLM的所有功能将有多酷。因此,我们在本报告中介绍了各种大小,而QWEN-1.8B则是基本的“大”语言模型。在Vary Toy中,我们引入了改进的视觉词汇,使该模型不仅具有变化的所有功能,而且还具有更多的一般性。具体来说,我们用由对象检测驱动的正面样本数据代替了自然图像的负面样本,在生成视觉词汇的过程中,更充分地利用了词汇网络的能力,并使其能够有效地编码与自然对象相对应的视觉信息。对于实验,Vary-Toy可以在DOCVQA上获得65.6%的ANL,ChartQA的精度为59.1%,Refcoco的精度为88.1%,MMVET的精度为29%。该代码将在主页上公开可用。
主要关键词